Les Entités Nommées : usage et degrés de précision et de désambiguïsation

نویسندگان

  • Claude Martineau
  • Elsa Tolone
  • Stavroula Voyatzi
چکیده

The recognition and classification of Named Entities (NER) are regarded as an important component for many Natural Language Processing (NLP) applications. The classification is usually made by taking into account the immediate context in which the NE appears. In some cases, this immediate context does not allow getting the right classification. We show in this paper that the use of an extended syntactic context and large-scale resources could be very useful in the NER task.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Shallow Methods for Named Entity Coreference Resolution

Nous nous intéressons dans cet article aux méthodes superficielles de résolution d’anaphores et de construction des chaı̂nes de référence, que nous avons développées comme modules du système d’extraction d’information ANNIE. La module ”orthomatcher” traite la coréférence orthographique des noms propres et le module de résolution d’anaphores traite les anaphores pronominales dont les antécédents ...

متن کامل

Named Entity Recognition and Correction in OCRized Corpora (Détection et correction automatique d'entités nommées dans des corpus OCRisés) [in French]

Résumé. La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d’erreurs à l’aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue géné...

متن کامل

Building a Bilingual Vietnamese-French Named Entity Annotated Corpus through Cross-Linguistic Projection

Résumé. La création de ressources linguistiques de bonne qualité annotées en entités nommées est très coûteuse en temps et en main d’œuvre. La plupart des corpus standards sont disponibles pour l’anglais mais pas pour les langues peu dotées, comme le vietnamien. Pour les langues asiatiques, cette tâche reste très difficile. Le présent article concerne la création automatique de corpus annotés e...

متن کامل

Extraction et identification d'entités complexes à partir de textes biomédicaux

Résumé. Nous présentons ici un système d’extraction et d’identification d’entités nommées complexes à l’intention des corpus de spécialité biomédicale. Nous avons développé une méthode qui repose sur une approche mixte à base d’ensemble de règles a priori et de dictionnaires contrôlés. Cet article expose les techniques que nous avons mises en place pour éviter ou minimiser les problèmes de syno...

متن کامل

Les entités nommées : des clés linguistiques pour la conceptualisation

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • CoRR

دوره abs/1003.4149  شماره 

صفحات  -

تاریخ انتشار 2007